Le Laboratoire des stratégies de l'Equité: Anonymisation des données RH : pourquoi supprimer le nom ne suffit pas (RGPD, IA et risque de ré-identification)

Il existe une croyance tenace dans les organisations : anonymiser une donnée suffit à neutraliser le risque. Retirer le nom, masquer le matricule, et le tour est joué.

Le collaborateur disparaît. Le risque aussi. La réalité est toute autre.

Le K-anonymity problem, c'est quoi?

Le concept a été formalisé en 1998 par la chercheuse en informatique Latanya Sweeney. Son principe est le suivant : une donnée n'est réellement anonyme que si au moins un certain nombre d'individus (k) partagent exactement le même profil d'attributs dans la base considérée.

En dessous de ce seuil, la personne est seule dans sa catégorie. Elle est identifiable, y compris sans son nom.

L.Sweeney l'a démontré empiriquement en "ré-identifiant" le dossier médical anonymisé du gouverneur du Massachusetts à partir de trois attributs publics : le code postal, la date de naissance, et le sexe. Trois variables. Aucune sensible prise isolément. Combinées, elles conduisaient à un seul individu.

C'est la logique de l'intersection. Ce n'est pas une variable qui identifie, mais leur croisement.

Pourquoi les RH sont particulièrement exposées

Les bases de données médicales ou démographiques à grande échelle offrent une protection naturelle : la population est large, les profils se répètent, le k reste élevé. En entreprise, cette protection peut vite disparaître.

La population est petite. Elle est connue. Les collaborateurs se côtoient, connaissent l'ancienneté des uns, le statut des autres, les absences récentes, les situations familiales. Le contexte informel fait une partie du travail d'identification avant même que quiconque n'interroge une base de données.

Prenez une équipe de huit personnes. Croisez le niveau hiérarchique, l'ancienneté approximative, le type d'absence, et la période concernée. Il ne reste souvent plus qu'un seul individu possible. Le k est égal à 1. L'anonymisation n'existe pas.

Ce phénomène s'aggrave avec la granularité des données RH. Plus le profil est précis, plus le risque de ré-identification augmente. Or en matière RH, c'est la précision qui est importante. C'est l'histoire du collaborateur, la prise en compte de son parcours spécifique qui permet l'aide à la décision, pas la généralité.

Imaginons maintenant une RH qui, pour préparer un entretien disciplinaire entre le dossier d'un collaborateur en se contentant d'enlever son nom.

Ou un manager qui demande, comment traiter un "refus de mobilité pour un collaborateur dont la mission vient de se terminer".

Les informations intégrées dans le système ne sont plus anonymisées. Plus précisément, elles courent un risque de ré-identification.

Les 3 formes de réidentification

La ré-identification directe est la plus visible. Un profil suffisamment détaillé permet à un tiers informé de mettre un nom sur un cas, sans accès aux données sources. Elle ne nécessite aucune compétence technique, seulement de la connaissance du terrain. C'est la ré-identification dont l'occurrence est la plus probable en entreprise.

La ré-identification par accumulation est plus insidieuse. Aucune requête isolée ne permet l'identification. Mais plusieurs interrogations successives, posées par des utilisateurs différents sur une période donnée, convergent vers le même profil implicite. L'information n'a pas été révélée, elle a été distillée.

La ré-identification par inférence négative est la moins intuitive. Si un système répond différemment selon que le cas est présent ou absent dans sa base, un utilisateur attentif peut procéder par élimination. Il teste des profils hypothétiques et observe les variations de réponse. C'est une attaque par inférence qui ne nécessite aucun accès direct aux données, seulement de la méthode.

Quel est le risque concret finalement ?

Le RGPD exclut de son champ d'application les données "rendues anonymes de telle manière que la personne concernée n'est plus identifiable" (considérant 26). Mais il ne définit pas ce que "anonyme" signifie. C'est le G29 — groupe des autorités européennes de protection des données, devenu aujourd'hui le Comité européen de la protection des données — qui a comblé ce vide dans son avis 05/2014 sur les techniques d'anonymisation.

Pour échapper à la règlementation posée par le RGPD, une anonymisation doit satisfaire trois critères cumulatifs :

1. Impossibilité d'individualisation : il ne doit pas être possible d'isoler un individu dans la base, même partiellement.

2. Impossibilité de corrélation: il ne doit pas être possible de relier entre eux deux enregistrements concernant la même personne, que ce soit dans la même base ou dans des bases distinctes.

3. Impossibilité d'inférence: il ne doit pas être possible de déduire, avec une probabilité significative, une information sur un individu à partir des données restantes.

Ces trois critères sont cumulatifs. Un seul défaillant suffit à requalifier la donnée en donnée personnelle, avec toutes les obligations du RGPD qui s'y attachent.

Dans des populations RH de taille réduite, le troisième critère est rarement satisfait. Et dans les environnements où une IA puise dans des cas réels pour formuler ses recommandations, le deuxième l'est encore moins.

Et la conséquence ?

Atteinte RGPD, violation du secret professionnel, violation du secret médical, fuite de données, diffamation, atteinte à la réputation...la liste est longue des risques juridiques induits par l'introduction de données personnelles "sans le nom" dans une IA, notamment si elle est générative.

Anonymiser ne protège pas, cela déplace simplement le risque, souvent sans que personne ne s’en rende compte.

La vraie question n’est donc pas :“avons-nous bien supprimé les noms ?”Mais :“avons-nous réellement rendu impossible l’identification ?”

Dans la majorité des usages RH actuels de l’IA, la réponse reste encore non.

Et ce “non” engage bien plus que la conformité.
Il engage la responsabilité du manager, la confiance des équipes… et la solidité même des décisions prises.

Car une décision construite sur une donnée faussement anonyme n’est pas seulement risquée.
Elle est fragile. Et une décision fragile, en entreprise, finit toujours par se voir.

Ce contenu vous concerne?

ABM FORMATION SAS accompagne les managers et leurs organisations avec des diagnostics, des formations et des interventions sur mesure : www.abmformation.fr

Prenez contact via le formulaire du blog ou directement par mail : annebilard@abmformation.fr

Pour d'autres contenus sur l'IA (en vidéo cette fois) c'est ici :

👇

https://abmformation.blogspot.com/2026/04/pourquoi-lia-ne-connait-pas-vraiment.html

pour aller plus loin sur les questions liées à l'IA, voir aussi l'article sur la variabilité décisionnelle et l'IA

Le Laboratoire des stratégies de l'Equité

vendredi 10 avril 2026

Anonymisation des données RH : pourquoi supprimer le nom ne suffit pas (RGPD, IA et risque de ré-identification)

Le K-anonymity problem, c'est quoi?

Pourquoi les RH sont particulièrement exposées

Les 3 formes de réidentification

Quel est le risque concret finalement ?

Et la conséquence ?

Aucun commentaire:

Enregistrer un commentaire

Traiter tout le monde pareil, l'ultime injustice ?

Signaler un abus

Libellés